بهبود تشخیص داده های پرت محلی در جریان داده ها
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر
- نویسنده آرش مزیدی
- استاد راهنما محمدهای صدرالدینی هومان تحیری
- سال انتشار 1393
چکیده
افزایش روزافزون داده ها در پایگاه داده ها، نیاز به روش های بهینه برای آنالیز داده ها را افزایش داده است. بیشتر مطالعات، بر روی پیدا کردن الگوهای کاربردی در پایگاه داده ها متمرکز شده اند. این مطالعات برای کاربردهای تشخیص فعالیت مجرمین در تجارت الکترونیک، تشخیص اتفاقات نادر و تشخیص انحرافات نسبت به کاربردهای موارد دیگر بیشتر و مفیدتر واقع شده است. اخیرا مطالعاتی بر روی کشف داده های پرت در پایگاه داده ها انجام شده است. الگوریتم های زیادی برای تشخیص و کشف داده های پرت ارائه شده است، اما اکثر این الگوریتم ها بر روی داده های ایستا کارایی دارند. داده های جریانی، داده هایی به صورت پیوسته و نامحدود هستند که در طول زمان، تغییر توزیع را خواهند داشت. این تغییر توزیع، باعث می شود تا الگوریتم های موجود برای داده های ایستا، برای داده های جریانی غیرقابل استفاده شوند و کارایی چندانی نداشته باشند. از طرفی دیگر، این تغییر توزیع، باعث افزایش نرخ مثبت-کاذب در الگوریتم های موجود می شود. در این پایان نامه، الگوریتمی را ارائه خواهیم داد تا با استفاده از روش تقسیم جریان به قطعه های مساوی و محاسبه ضریب ناهنجاری محلی برای داده ها و استفاده از لیستی برای داده های پرت کاندید، بتوانیم داده های پرت و الگوهای نامتعارف را شناسایی کرده و نرخ مثبت-کاذب را کاهش داده و از طرف دیگر، دقت الگوریتم و نرخ تشخیص را افزایش دهیم. نتایج بدست آمده از اجرای الگوریتم پیشنهادی بر روی مجموعه داده های مصنوعی و حقیقی، نشان می-دهد که الگوریتم پیشنهادی باعث کاهش قابل توجه نرخ مثبت-کاذب و افزایش دقت و نرخ تشخیص شده است. همچنین در مقایسه با الگوریتم ضریب ناهنجاری محلی افزایشی، به دلیل عدم به روز رسانی ضریب ناهنجاری داده ها در هنگام ورود و خروج داده ها به سیستم، باعث افزایش سرعت سیستم شده است.
منابع مشابه
شناسایی خطاهای داده های خام بویه های موج نگار با استفاده از روش ضریب داده پرت محلی
استخراج مشخصات دریا معمولاً از طریق بویههای موج نگار انجام میشود. اما ثبت داده توسط موج نگارها معمولاً با خطاهایی همراه است. لذا قبل از استخراج هرگونه اطلاعاتی لازم است این خطاها را شناخت و آنها را حذف و یا تصحیح کرد. هدف از این تحقیق، شناسایی خطاهای موجود در برداشت داده-های خام از بویههای موج نگار، با استفاده از روش ضریب داده پرت محلی (LOF) است. LOF روشی قدرتمند جهت شناسایی ناهنجاری دادهها د...
متن کاملتشخیص داده های پرت فضایی
در ذخایر معدنی، تشخیص مقادیری که در دم راست توزیع واقع شده اند، از نظر اقتصادی اهمیت ویژه ای دارند؛ در نتیجه تشخیص مرز این گونه مشاهدات در صنعت معدن اهمیت بسزایی در اکتشاف و استخراج دارد. روش های موجود برای تشخیص داده پرت فضایی، مقدار این داده ها را ارائه می کنند و معیاری جهت شناسایی مرز مقادیر بالا ارائه نمی دهند. از این رو در این پایان نامه برای شناسایی مرز مقادیر بالا، روش مرز-بالا پیشنه...
15 صفحه اولشناسایی خطاهای داده های خام بویه های موج نگار با استفاده از روش ضریب داده پرت محلی
استخراج مشخصات دریا معمولاً از طریق بویه های موج نگار انجام می شود. اما ثبت داده توسط موج نگارها معمولاً با خطاهایی همراه است. لذا قبل از استخراج هرگونه اطلاعاتی لازم است این خطاها را شناخت و آنها را حذف و یا تصحیح کرد. هدف از این تحقیق، شناسایی خطاهای موجود در برداشت داده-های خام از بویه های موج نگار، با استفاده از روش ضریب داده پرت محلی (lof) است. lof روشی قدرتمند جهت شناسایی ناهنجاری داده ها د...
متن کاملکاربرد الگوریتم های داده کاوی در تشخیص داده های ژئوشیمیایی خارج از ردیف چند متغیره
تشخیص دادههای خارج از ردیف چند متغیره به کمک الگوریتمهای دادهکاوی یکی از نکات ضروری پیشپردازش دادههای اکتشافات ژئوشیمیایی محسوب میشود. در این مقاله چهار الگوریتم برآورد چگالی کرنل (KDE)، ضریب خارج از ردیف بودن محلی (LOF)، OPTICS-OF و SVDD که به ترتیب جزو روشهای آماری، روشهای مبتنی بر مجاورت، روشهای مبتنی بر خوشهبندی و روشهای مبتنی بر دستهبندی هستند، معرفی شده و کاربرد آنها بر روی دا...
متن کاملذخیره سازی داده ها
انباشت داده ها زمانی تکنولوژی، تخیلات و رویاهای انسان را محدود می کرد. اما اکنون همان رویاها به ستیز با تکنولوژی برخاسته اند. به اعتقاد «روبرت بار» ما به جای اینکه همواره در پی انباشت داده ها باشیم، بایستی یاد بگیریم که چگونه آنها را توزیع و منتشر کنیم. من در ماه های اخیر از پیشرفت هایی که در امر توسعه بوقوع پیوسته و بطور بنیادی صنعت GIS را برای همگان قابل دست...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023